检索结果

Select

1. 基于核非负矩阵分解的有向图聚类算法

陈献, 胡丽莹, 林晓炜, 陈黎飞

《计算机应用》唯一官方网站 2021, 41 (12): 3447-3454. DOI: 10.11772/j.issn.1001-9081.2021061129

摘要（315）

HTML （9）

PDF （653KB）（88）

现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设，忽略了节点间存在的非线性相关性。针对该问题，提出一种基于核非负矩阵分解（KNMF）的有向图聚类算法。首先，引入核学习方法将有向图的邻接矩阵投影到核空间，并通过特定的正则项约束原空间及核空间中节点间的相似性。其次，提出了图正则化核非对称NMF算法的目标函数，并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系，从而准确地揭示有向图中潜在的结构信息。最后，在专利-引文网络（PCN）数据集上的实验结果表明，簇的数目为2时，和对比算法相比，所提算法将DB值和DQF值分别提高了约0.25和8%，取得了更好的聚类质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于BERT的不完全数据情感分类

罗俊, 陈黎飞

计算机应用 2021, 41 (1): 139-144. DOI: 10.11772/j.issn.1001-9081.2020061066

摘要（395）

PDF （921KB）（873）

不完全数据，如社交平台的互动信息、互联网电影资料库中的影评内容，广泛存在于现实生活中。而现有情感分类模型大多建立在完整的数据集上，没有考虑不完整数据对分类性能的影响。针对上述问题提出基于BERT的栈式降噪神经网络模型，用于面向不完全数据的情感分类。该模型由栈式降噪自编码器（SDAE）和BERT两部分组成。首先将经词嵌入处理的不完全数据输入到SDAE中进行去噪训练，以提取深层特征来重构缺失词和错误词的特征表示；接着将所得输出传入BERT预训练模型中进行精化以进一步改进词的特征向量表示。在两个常用的情感数据集上的实验结果表明，所提方法在不完全数据情感分类中的F1值和准确率分别提高了约6%和5%，验证了所提模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 视频帧内运动目标移除篡改检测算法

尹立, 林新棋, 陈黎飞

计算机应用 2018, 38 (3): 879-883. DOI: 10.11772/j.issn.1001-9081.2017092198

摘要（416）

PDF （862KB）（400）

针对数字视频帧内对象被移除的篡改操作，提出了一种基于主成分分析（PCA）的篡改检测算法。首先对待测视频帧与基准帧相减得到的差异帧使用稀疏表示方法进行去噪，降低噪声对随后特征提取的干扰；其次将去噪后的视频帧进行非重叠分块，利用主成分分析提取像素点的特征并构造特征向量空间；然后使用 k-means算法对特征向量空间进行分类，并将分类结果用二值矩阵表示；最后对二值矩阵进行图像形态学操作得到最终检测结果。实验结果表明所提算法的检测性能指标精确度达到91%、准确度达到100%、F1值达到95.3%，比基于压缩感知的视频篡改检测算法在性能指标上有一定程度的提高。实验证明，对于背景静止的视频，该算法能够检测出帧内运动目标被删除的篡改操作，而且对有损压缩视频具有很好的鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于概率模型的非均匀数据聚类算法

杨天鹏, 陈黎飞

计算机应用 2018, 38 (10): 2844-2849. DOI: 10.11772/j.issn.1001-9081.2018020375

摘要（647）

PDF （1008KB）（375）

针对传统 K-means型算法的"均匀效应"问题，提出一种基于概率模型的聚类算法。首先，提出一个描述非均匀数据簇的高斯混合分布模型，该模型允许数据集中同时包含密度和大小存在差异的簇；其次，推导了非均匀数据聚类的目标优化函数，并定义了优化该函数的期望最大化（EM）型聚类算法。分析结果表明，所提算法可以进行非均匀数据的软子空间聚类。最后，在合成数据集与实际数据集上进行的实验结果表明，所提算法有较高的聚类精度，与现有 K-means型算法及基于欠抽样的算法相比，所提算法获得了5%~50%的精度提升。

参考文献 | 相关文章 | 多维度评价

Select

5. 符号序列多阶Markov分类

程铃钫, 郭躬德, 陈黎飞

计算机应用 2017, 37 (7): 1977-1982. DOI: 10.11772/j.issn.1001-9081.2017.07.1977

摘要（565）

PDF （956KB）（367）

针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题，提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先，建立了基于多阶次Markov模型的条件概率分布模型；其次，提出一种附后缀表的 n-阶子序列后缀树结构和高效的树构造算法，该算法能够在扫描一遍序列集过程中建立多阶条件概率模型；最后，提出符号序列的贝叶斯分类器，其训练算法基于最大似然法学习不同阶次模型的权重，分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验，结果表明：新分类器对模型阶数变化不敏感；与使用固定阶模型的支持向量机等现有方法相比，所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升，且可输出符号序列Markov模型最优阶数参考值。

参考文献 | 相关文章 | 多维度评价

Select

6. 类属数据的贝叶斯聚类算法

朱杰, 陈黎飞

计算机应用 2017, 37 (4): 1026-1031. DOI: 10.11772/j.issn.1001-9081.2017.04.1026

摘要（638）

PDF （919KB）（504）

针对类属型数据聚类中对象间距离函数定义的困难问题，提出一种基于贝叶斯概率估计的类属数据聚类算法。首先，提出一种属性加权的概率模型，在这个模型中每个类属属性被赋予一个反映其重要性的权重；其次，经过贝叶斯公式的变换，定义了基于最大似然估计的聚类优化目标函数，并提出了一种基于划分的聚类算法，该算法不再依赖于对象间的距离，而是根据对象与数据集划分间的加权似然进行聚类；第三，推导了计算属性权重的表达式，得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验，结果表明，与基于距离的现有聚类算法相比，所提算法提高了聚类精度，特别是在生物信息学数据上取得了5%~48%的提升幅度，并可以获得有实际意义的属性加权结果。

参考文献 | 相关文章 | 多维度评价

Select

7. 回归模型中哑变量的相对重要性指数

李海超, 王开军, 胡淼, 陈黎飞

计算机应用 2017, 37 (11): 3048-3052. DOI: 10.11772/j.issn.1001-9081.2017.11.3048

摘要（851）

PDF （819KB）（625）

为在回归模型中描述定性属性，通常需要引入哑变量。对含哑变量的回归方程，提出描述不同哑变量在回归方程中不同重要程度的方法。该方法分解出含哑变量的回归方程中哑变量部分和非哑变量部分的回归平方和，计算这两部分在该回归方程中所起作用的占比，将该占比设计为各哑变量在回归方程中的相对重要程度指数。在近10万笔的Lending Club和Prosper网络借贷数据集上，所进行的挖掘借款用途对借款成功率、信用等级对借款利率的影响程度的实验结果表明，与传统回归方程仅提供哑变量前的系数却不能展现其重要程度相比，所提方法展现出不同哑变量的不同重要程度，为定量分析回归方程中定性自变量对因变量的影响程度提供了重要的手段。

参考文献 | 相关文章 | 多维度评价

Select

8. 不平衡数据的软子空间聚类算法

程铃钫, 杨天鹏, 陈黎飞

计算机应用 2017, 37 (10): 2952-2957. DOI: 10.11772/j.issn.1001-9081.2017.10.2952

摘要（521）

PDF （935KB）（672）

针对受均匀效应的影响，当前 K-means型软子空间算法不能有效聚类不平衡数据的问题，提出一种基于划分的不平衡数据软子空间聚类新算法。首先，提出一种双加权方法，在赋予每个属性一个特征权重的同时，赋予每个簇反映其重要性的一个簇类权重；其次，提出一种混合型数据的新距离度量，以平衡不同类型属性及具有不同符号数目的类属型属性间的差异；第三，定义了基于双加权方法的不平衡数据子空间聚类目标优化函数，给出了优化簇类权重和特征权重的表达式。在实际应用数据集上进行了系列实验，结果表明，新算法使用的双权重方法能够为不平衡数据中的簇类学习更准确的软子空间；与现有的 K-means型软子空间算法相比，所提算法提高了不平衡数据的聚类精度，在其中的生物信息学数据上可以取得近50%的提升幅度。

参考文献 | 相关文章 | 多维度评价

Select

9. 优化子空间的高维聚类算法

吴涛陈黎飞郭躬德

计算机应用 2014, 34 (8): 2279-2284. DOI: 10.11772/j.issn.1001-9081.2014.08.2279

摘要（261）

PDF （968KB）（405）

针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题，提出一种新的软子空间聚类算法。该算法将最大化权重之间的差异性作为子空间优化的目标，并提出了一个量化公式。以此为基础设计了一个新的优化目标函数，在最小化簇内紧凑度的同时，优化每个簇所在的软子空间。通过数学推导得到了新的特征权重计算方法，并基于k-means算法框架定义了新聚类算法。实验结果表明，所提算法对子空间的优化降低了算法过早陷入局部最优的可能性，提高了算法的稳定性，并且具有良好的性能和聚类效果，适合用于高维数据聚类分析。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于词性标注序列特征提取的微博情感分类

卢伟胜郭躬德陈黎飞

计算机应用 2014, 34 (10): 2869-2873. DOI: 10.11772/j.issn.1001-9081.2014.10.2869

摘要（210）

PDF （801KB）（458）

传统的n-gram文本特征提取方法会产生高维度的特征向量，高维数据不但增大了分类的难度，同时也会增加分类的时间。针对这一问题，提出了一种基于词性（POS）标注序列的特征提取方法，根据词性序列能够代表一类文本的这一个特点，利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中，词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度，降低4816个维度。实验结果表明，该方法能够适用于微博情感分类。

参考文献 | 相关文章 | 多维度评价

Select

11. 检测迷惑恶意代码的层次化特征选择方法

张健飞陈黎飞郭躬德

计算机应用 2012, 32 (10): 2761-2767. DOI: 10.3724/SP.J.1087.2012.02761

摘要（924）

PDF （1145KB）（460）

各种迷惑恶意代码能够轻易躲避传统静态检测,而动态检测方式虽有较好的检测率,却消耗大量系统资源。为提高低系统开销下迷惑恶意代码的检测率,提出一种层次化特征选择方法,依次在引导层、个体层、家族层和全局层上生成并选择特征。层次方法以逐层精化特征的方式寻求特征冗余和信息漏选之间的平衡。实际数据集上的实验结果表明所提方法的迷惑恶意代码检测率较高,与传统特征选择方法相比,具有所需训练样本集小、泛化能力强的优点。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于少量类标签的概念漂移检测算法

李南郭躬德陈黎飞

计算机应用 2012, 32 (08): 2176-2185. DOI: 10.3724/SP.J.1087.2012.02176

摘要（1065）

PDF （1184KB）（541）

传统的概念漂移数据流分类算法通常利用测试数据的真实类标来检测数据流是否发生概念漂移,并根据需要调整分类模型。然而,真实类标的标记需要耗费大量的人力、物力,而持续不断到来的高速数据流使得这种解决方案在现实中难以实现。针对上述问题,提出一种基于少量类标签的概念漂移检测算法。它根据快速KNNModel算法利用模型簇分类的特点,在未知分类数据类标的情况下,根据当前数据块不被任一模型簇覆盖的实例数目较之前数据块在一定的显著水平下是否发生显著增大,来判断是否发生概念漂移。在概念漂移发生的情况下,让领域专家针对那些少量的不被模型簇覆盖的数据进行标记,并利用这些数据自我修正模型,较好地解决了概念漂移的检测和模型自我更新问题。实验结果表明,该方法能够在自适应处理数据流概念漂移的前提下对数据流进行快速的分类,并得到和传统数据流分类算法近似或更高的分类精度。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于KNN模型的层次纠错输出编码算法

辛轶郭躬德陈黎飞黄杰

计算机应用 2009, 29 (11): 3051-3055.

摘要（1597）

PDF （990KB）（1161）

纠错输出编码是一种解决多类分类问题的有效方法，但其编码矩阵只对类进行编码且都采用事先构造出来的统一形式，适应性较差。为此，提出一种新颖的层次纠错输出编码算法。该算法在训练阶段先通过KNN模型算法在数据集上构建多个同类簇，选取各类中最具代表性的簇形成层次编码矩阵，然后再根据编码矩阵进行单分类器训练。在测试阶段,该算法通过模型融合进一步发挥KNN模型和纠错输出编码各自的优点。在UCI公共数据集上的实验结果表明,新方法的性能优于KNN模型算法和纠错输出编码算法。